1 Proposition

1.1 Introduction

Mon groupe envisage d’utiliser deux ensembles de données dans notre projet de cours. Le premier ensemble de données couvre les ventes d’une grande chaîne de supermarchés aux États-Unis de 2014 à 2017, et le deuxième ensemble de données couvre les ventes de Walmart Myanmar au premier trimestre 2019. Notre analyse se concentrera sur cinq dimensions : la commande, le client, le produit, la météo et l’emplacement. Nous analyserons principalement les données pertinentes des supermarchés américains, chercherons à comprendre les raisons possibles de la baisse du taux de croissance des ventes et proposerons des moyens d’augmenter les ventes. Dans le même temps, nous comparerons également les transactions entre les États-Unis et le Myanmar afin de mieux comprendre le marché et de fournir des données pour les stratégies de marché transfrontalières.

1.2 Donnée

1.2.1 L’info de vente pour une chaîne de supermarché aux États-Unis

Ensemble de données sur le commerce de détail d’une grande surface internationale pendant 4 ans aux États-Unis. Il comprend divers attributs, notamment le ID de la command, la date de commande, la date d’expédition, le mode d’expédition, ID de client, le nom du client, le pay de cette commande, la ville de commande, le code postal, la région, ID de produit, la catégorie de produit, le nom du produit, le montant des ventes de ce produit, le nombre d’unité (pièce) de ce produit, le montant de réduction de ce produit. Ce riche ensemble de données facilite l’analyse détaillée et la compréhension des préférences des clients, de la façon de transport, de la génération de revenus, ce qui permet aux entreprises de changer leurs stratégies pour enlever la satisfaction des clients.

  • Nombre d’observations: 9995

  • Nombre de variables: 21

  • Source 🚀

Caractéristique Description Type
invoice_id Identifiant de la facture String
branch Le symbol de ce chaîne de Walmart char(A, B, C)
city La ville où se trouve le Walmart String
customer_type Membre ou non (carte de fidélité) String(Membre, Normal)
gender Sexe de ce client String(Female, Male)
product_line Catégorie de cet article String
unit_price Prix d’un pièce float
quantity Quantité des articles achetés int
vat TVA en France float
total Montant total d’achat float
dtme Date et l’heure de l’achat DATE(YYYY/MM/DD)
tme Heure précise de l’achat TIME(HH:MM:SS)
payment_method Mode de paiement, comme espèces char
cogs Coût d’un produit vendu float
gross_margin_pct Marge brute en pourcentage(%) float
gross_income Revenu brut total float
rating Évaluation de l’expérience d’achat float
time_of_day Moment d’achat, comme matin/midi String
day_name Jour de la semaine String
month_name Mois où l’achat a été effectué String

1.2.2 L’info de vente dans 3 chaînes Walmart en Birmanie

L’ensemble de données fournit des informations complètes sur les transactions de vente effectuées par Walmart, l’une des principales chaînes de magasins au monde. Il comprend divers attributs, notamment l’ID de la facture, la succursale, la ville, le type de client, le sexe, la ligne de produit, le prix unitaire, la quantité, la taxe (5 %), le prix total, la date, l’heure, le mode de paiement, le coût des marchandises vendues (COGS), le pourcentage de marge brute, le revenu brut et l’évaluation. Ce riche ensemble de données facilite l’analyse détaillée et la compréhension des modèles de vente, des préférences des clients, de la génération de revenus et de l’évaluation des performances, ce qui permet aux entreprises de prendre des décisions et des stratégies éclairées pour améliorer leur efficacité opérationnelle et la satisfaction des clients.

  • Nombre d’observations: 1001

  • Nombre de variables: 20

  • Source 🚀

Caractéristique Description Type
Row ID Identifiant de ligne(1, 2…) int
Order ID Identifiant de la commande String
Order Date Date à laquelle la commande se passe DATE(DD/MM/YYYY)
Ship Date Date d’expédition DATE(DD/MM/YYYY)
Ship Mode Mode d’expédition de la commande String
Customer ID ID du client associé à la commande String
Customer Name Nom du client String
Segment Segment de client(entreprise, particulier) String
Country Pays de cette commande String
City Ville où la commande a été expédiée String
State États aux états-unis String
Postal Code Code postal int
Region Région géographique(l’est, l’ouest…) String
Product ID Identifiant du produit de cette commande String
Category Catégorie générale(comme Product Line) String
Sub-Category Sous-catégorie spécifique du produit String
Product Name Nom du produit String
Sales Montant des ventes de ce produit float
Quantity Nombre d’unités de ce produit int
Discount Montant de réduction à ce produit float
Profit Montant de profit généré par ce produit float

1.3 Plan d’analyse

Nous avons obtenu des informations complètes sur les transactions de vente dans les grands supermarchés aux États-Unis et au Myanmar respectivement, et effectuerons une analyse des données à ce sujet. Voici quelques exemples d’analyse de requêtes sur cet ensemble de données :

1.3.1 Analyse des performances des ventes des supermarchés aux États-Unis

  1. Dimension de la commande : Quel est le montant moyen de la transaction et le taux de connexion de chaque commande ? Quelle est la relation entre le montant de la commande et le nombre d’articles commandés ? Quel est le prix total et le bénéfice de chaque commande ?

    La relation entre le montant de la commande et le nombre d’articles dans la commande peut refléter les caractéristiques du comportement d’achat du client. L’analyse de ces indicateurs peut aider les entreprises à comprendre les caractéristiques et les tendances du comportement d’achat des clients, orientant ainsi les stratégies de vente et les activités marketing de l’entreprise. Par exemple, s’il existe une forte corrélation positive entre le montant de la commande et le nombre de produits, l’entreprise peut prendre certaines mesures pour encourager les clients à acheter davantage de produits, telles que la lancement de réductions sur les forfaits, les ventes combinées, etc. Si le taux combiné est faible, cela peut accroître la volonté des clients d’acheter plusieurs produits par le biais de ventes liées, d’activités promotionnelles, etc., augmentant ainsi les ventes.

  2. Dimension client : Quel est le prix unitaire par client ? Quelle est la relation entre le montant de la consommation du client et le nombre de pièces consommées ? En utilisant le modèle RFM pour stratifier les utilisateurs, pouvons-nous voir le cycle de vie du client et le cycle d’achat ?

    En tant que modèle d’analyse du comportement de consommation dans le domaine de la gestion de la relation client, le modèle RFM comprend trois variables : le moment de l’achat récent R (Récence), la fréquence d’achat F (Fréquence) et le montant de l’achat M (Monétaire). En analysant le nombre de jours dans l’intervalle de temps, plus la valeur est petite, plus la probabilité d’achat répété du client est grande et plus la valeur du client est élevée. F représente le nombre de fois que le client achète des marchandises au cours de la période. Plus l’achat est élevé. fréquence, plus le client est fidèle. M représente le montant total de l’achat. Le montant de l’achat et la fidélité du client sont également directement proportionnels, de sorte que la valeur du client peut être obtenue en analysant le score RFM.

  3. Dimension du produit : Le positionnement prix du produit est-il élevé ou bas ? Quelle gamme de prix de produits se vend le mieux ? Quel niveau de prix génère réellement le plus de ventes ?

    Les ventes par segment révèlent non seulement les catégories de produits les plus populaires, mais soulignent également les domaines dans lesquels la demande du marché n’est pas entièrement satisfaite.

  4. Dimension temporelle : Quelle est la tendance des ventes pour chaque mois/jour et quelle est l’analyse du taux de croissance (ou du taux de déclin) ? Quel a pu être l’impact ?

    En analysant la répartition des données de vente sur différents jours, les entreprises peuvent optimiser la préparation des stocks pour faire face aux pics de trafic client. L’analyse peut également guider la planification de campagnes marketing, telles que l’offre de promotions spéciales pendant les périodes de baisse attendue des ventes.

  5. Dimension géographique : De quels pays proviennent principalement les clients ? Quel pays est le principal marché étranger ? Dans quel pays les clients ont le pouvoir d’achat moyen le plus élevé ?

    Cette analyse peut examiner les différences de ventes par région en raison de la densité de population, du pouvoir d’achat des clients ou de la commodité géographique. Une analyse plus approfondie peut également identifier les domaines dans lesquels il existe une plus grande demande pour un produit ou un service spécifique, ce qui peut indiquer des opportunités d’expansion ou une pénétration accrue du marché.

1.3.2 Comparaison des supermarchés aux États-Unis et au Myanmar

  1. Comparaison des prix et des marges bénéficiaires : Comparer les prix des produits et les marges bénéficiaires dans les deux pays peut aider les entreprises à comprendre la sensibilité aux prix et la compétitivité des différents marchés.

  2. Part de marché et potentiel de croissance : En analysant les données de ventes, vous pouvez comprendre la part de marché et le potentiel de croissance de l’entreprise sur les deux marchés. Cela permet d’identifier et de prioriser les opportunités d’expansion du marché.

  3. Environnement économique et comportement des consommateurs : En comparant les données de ventes de deux pays, nous pouvons comprendre l’environnement économique, le niveau de revenus des consommateurs et le pouvoir d’achat des pays respectifs, fournissant ainsi une référence pour la formulation de stratégies de marché.

2 Exploration

2.1 Dimension de la commande

2.1.1 Calcul des montants moyens des transactions

  • La sous-catégorie Copieurs a la valeur moyenne de transaction la plus élevée, soit plus de 1 500, ce qui suggère que les copieurs sont des articles plus rentables ou que les clients ont tendance à choisir des produits de plus grande valeur lorsqu’ils font des achats.
  • Les sous-catégories Machines et Tables affichent également des valeurs moyennes de transaction plus élevées, mais nettement inférieures à celles des Copieurs. Cela peut refléter des stratégies de prix ou des habitudes d’achat des clients sur le marché pour les produits de ces catégories.
  • La plupart des autres sous-catégories, telles que la papeterie (attaches) et les étiquettes, ont une valeur moyenne de transaction inférieure à 500, ce qui peut s’expliquer par le prix unitaire inférieur de ces articles ou par le fait que les clients les achètent généralement en plus petites quantités.
  • Ce graphique montre clairement la valeur moyenne de transaction des différentes sous-catégories, ce qui nous aide à comprendre la performance du marché et le comportement d’achat des clients pour chaque catégorie. Pour les sous-catégories dont le montant moyen des transactions est élevé, les entreprises peuvent envisager des stratégies telles que l’offre de forfaits à prix réduit ou de services de crédit afin d’augmenter les ventes et d’améliorer la satisfaction des clients. Pour les sous-catégories dont le montant moyen des transactions est plus faible, l’entreprise peut inciter les clients à acheter davantage d’articles par le biais d’offres groupées ou d’activités promotionnelles.

2.1.2 Calcul du montant total de la commande et de la rentabilité

  • La sous-catégorie des téléphones a été la plus performante en termes de ventes totales, ce qui indique que cette catégorie est très populaire sur le marché et qu’elle enregistre de bons résultats.
  • La sous-catégorie Copieurs a été la plus performante en termes de bénéfices et peut avoir eu des marges plus élevées.
  • Les sous-catégories Fournitures et Tables ont enregistré des pertes, comme le montre le graphique en rouge, ce qui pourrait signifier que le contrôle des coûts dans ces catégories doit être amélioré ou que les stratégies de vente doivent être ajustées.
  • La plupart des sous-catégories ont réalisé un bénéfice, mais le niveau de bénéfice varie, ce qui peut refléter les marges et les structures de coûts des différents produits.

2.1.3 Part de marché et potentiel de croissance

2.1.3.1 Calcul de la part de marché

- La sous-catégorie des téléphones arrive en tête en termes de parts de marché, avec une part de plus de 15 %, ce qui suggère une forte demande de produits téléphoniques sur le marché américain. - Les sous-catégories des chaises et des classeurs suivent avec des parts de marché d’un peu moins de 10 % chacune, ce qui reflète probablement la demande constante de mobilier et de fournitures de bureau sur le marché. - D’autres sous-catégories telles que le stockage, les copieurs et les appareils ménagers ont des parts de marché plus faibles, mais cela ne signifie pas qu’elles n’ont pas de potentiel de croissance. La faible part de marché peut être due à une forte concurrence sur le marché ou à la nature du segment.

  • La ligne de produits Sports et voyages détient une part de marché de 17,1 %, ce qui indique une demande stable pour les produits liés aux activités de loisirs au Myanmar.
  • Les accessoires électroniques et les accessoires pour la maison et le style de vie détiennent chacun 16,8 % du marché, ce qui démontre l’importance de ces produits dans la vie de tous les jours.
  • Le secteur de la santé et de la beauté suit avec 16,7 %, reflétant l’intérêt des consommateurs pour les produits de soins personnels et de bien-être.
  • Les produits alimentaires et les boissons sont légèrement en tête avec 17,4 %, ce qui est peut-être lié aux besoins de base du mode de vie et aux habitudes de consommation.
  • Les accessoires de mode, avec 15,2 %, ont la part la plus faible de toutes les catégories, mais restent un segment de marché à ne pas négliger.

2.2 Dimension du client

2.2.1 Extraire les données relatives aux clients

2.2.1.1 Fonction d’assistance

2.2.1.2 Traitement des données aux Birmanie, soyez connecté au client

2.2.2 Traitement des données aux États-Unis, soyez connecté au client

2.2.3 Analyse du prix unitaire client

2.2.3.1 Aperçu annuel des États-Unis et du Myanmar

Le prix unitaire client fait référence au montant moyen dépensé par chaque client dans une activité d’achat ou de consommation.

Cela montre que le prix unitaire par client aux États-Unis a eu tendance à être retiré des rayons entre 2014 et 2017, mais il était également plus élevé que le prix unitaire par client au Myanmar en 2019.

2.2.4 La relation entre la quantité achetée par le client et le prix total

On voit clairement que le montant total des achats des clients augmente à mesure que la quantité achetée augmente. Dans le même temps, le niveau du montant total des achats des clients américains fluctue beaucoup plus que celui du Myanmar.

2.2.5 RFM Model

## # A tibble: 6 × 9
##   customer_id total_days recency frequency monetary r_score f_score m_score
##   <chr>            <dbl>   <dbl>     <int>    <dbl>   <int>   <int>   <int>
## 1 AG-10330           506       8         5    661.        1       2       1
## 2 AO-10810             0     501         1    161.        2       1       1
## 3 AR-10570             0     534         1     88.2       2       1       1
## 4 AS-10135           371      41         2     58.8       1       1       1
## 5 BD-11770           333     327         6    658.        2       2       1
## 6 CA-12055           446     401         5   1680.        2       2       2
## # ℹ 1 more variable: segment <chr>

Le modèle RMF est un modèle d’analyse client utilisé pour classer et évaluer les clients afin de développer des stratégies marketing personnalisées et de gérer les relations clients. Le nom du modèle RMF vient de ses trois indicateurs clés : l’heure du dernier achat (Recency), la fréquence d’achat (Frequency) et le montant de la consommation (Monétaire).

Selon le modèle RMF, les utilisateurs peuvent être divisés en 8 poids et nous pouvons nous concentrer sur les clients correspondants en fonction de la stratégie de développement du supermarché.


2.3 Dimension de “produit” au marché Américain

We want to clean the data in the dataset US

## # A tibble: 8,326 × 7
##    product_id      category  sub_category unit_price quantity total  profit
##    <chr>           <chr>     <chr>             <dbl>    <dbl> <dbl>   <dbl>
##  1 FUR-BO-10000112 Furniture Bookcases          91.7        9  825. -118.  
##  2 FUR-BO-10000330 Furniture Bookcases         103.         8  823.   -4.84
##  3 FUR-BO-10000330 Furniture Bookcases         121.         2  242.   33.9 
##  4 FUR-BO-10000362 Furniture Bookcases         120.         3  359.  -35.9 
##  5 FUR-BO-10000362 Furniture Bookcases         137.         1  137.    5.13
##  6 FUR-BO-10000362 Furniture Bookcases         145.         2  291.   27.4 
##  7 FUR-BO-10000362 Furniture Bookcases         171.         2  342.   78.7 
##  8 FUR-BO-10000362 Furniture Bookcases         171.         6 1026.  236.  
##  9 FUR-BO-10000468 Furniture Bookcases          14.6        7  102. -184.  
## 10 FUR-BO-10000468 Furniture Bookcases          38.9        4  155.   -7.77
## # ℹ 8,316 more rows

Nous voulons nettoyer les données de l’ensemble de données mya. Nous conservons les champs suivants : product_id, category, unit_price, quantity, total, profit. Une chose à noter est que le « invoice_id » représente le « product_id ».

## # A tibble: 1,000 × 6
##    product_id  category               unit_price quantity total profit
##    <chr>       <chr>                       <dbl>    <dbl> <dbl>  <dbl>
##  1 114-35-5271 Electronic accessories       57.9        8  486.  110. 
##  2 120-06-4233 Electronic accessories       30.6        6  193.   43.7
##  3 122-61-9553 Electronic accessories       51.3        9  485.  110. 
##  4 124-31-1458 Electronic accessories       79.6        3  251.   56.8
##  5 132-32-9879 Electronic accessories       94.0        4  395.   89.5
##  6 134-54-4720 Electronic accessories       42.4        8  356.   80.8
##  7 134-75-2619 Electronic accessories       19.3        7  142.   32.2
##  8 137-63-5492 Electronic accessories       58.8       10  617.  140. 
##  9 139-20-0155 Electronic accessories       40.3       10  423.   96.0
## 10 151-16-1484 Electronic accessories       32.2        4  135.   30.7
## # ℹ 990 more rows

2.3.1 La relation entre les ventes et le prix

Nous pouvons voir que les produits moins chers que 500$ se vendent mieux. En d’autres termes, la fourchette de prix 0-500$ est la meilleure. Mais en fait, la baisse du prix ne génère pas le plus de ventes. Il y a beaucoup de points rassemblés dans le coin inférieur gauche.

2.3.2 La distribution des prix et des bénéfices

2.3.2.1 Sensibilité au prix : la distribution et les tendances des prix

Sur les marchés où la sensibilité au prix est élevée, on observe généralement une large distribution des prix des produits et des marges bénéficiaires plus faibles, car les consommateurs ont tendance à préférer les produits moins chers. À l’instar du marché américain

À l’inverse, sur les marchés où la sensibilité au prix est faible, la distribution des prix des produits est généralement plus étroite et les marges bénéficiaires plus élevées. C’est le cas du marché du MYA.

2.3.2.2 La compétitivité : la distribution et les tendances des bénéfices

Sur les marchés très concurrentiels, les bénéfices sur les produits ont tendance à être concentrés, car les concurrents s’efforcent de baisser les prix pour attirer les consommateurs, réduisant ainsi les marges bénéficiaires des entreprises. À l’instar du marché américain

Sur les marchés moins concurrentiels, les bénéfices sur les produits ont tendance à être plus largement répartis, car les entreprises disposent d’une plus grande flexibilité en matière de fixation des prix et peuvent maintenir des marges bénéficiaires relativement plus élevées. Tout comme le marché du MYA.

2.4 dimension temporelle

Dans la dimension temporelle, nous devons analyser les questions suivantes concernant les données des supermarchés américains:

Quelle est la tendance des ventes chaque mois et quelle est l’analyse du taux de croissance (ou du taux de baisse)? Quel a pu être l’impact ?

2.4.1 tendances des ventes mensuelles

Afin de voir clairement la tendance des ventes mensuelles, nous allons tracer un graphique des ventes mensuelles :

Comme le montre la figure ci-dessus, il s’agit du graphique chronologique du volume des ventes et des bénéfices de 2014 à 2017, et du graphique chronologique des ventes de 2014 à 2017. Comme le montre la figure, les ventes et le volume des ventes suivent une tendance à la hausse, et il existe des fluctuations saisonnières évidentes au cours des quatre années, les meilleures conditions de vente étant enregistrées en juillet, octobre et novembre. Avec une activité en croissance constante, nous espérons prédire les ventes futures sur la base des ventes historiques sur 4 ans, afin de procéder à de futurs ajustements et configurations stratégiques.

2.4.2 Modèle de série chronologique

2.4.2.1 Principes du modèle de séries chronologiques

La prévision de séries chronologiques implique principalement d’organiser un ensemble de valeurs d’observation dans une série chronologique, traitant ainsi la série chronologique et utilisant des modèles mathématiques pour l’étendre davantage afin de prédire la tendance de développement à l’avenir.

Les données sur les ventes des supermarchés présentées dans cet article sont des données chronologiques évidentes de janvier 2014 à décembre 2017. Elles présentent deux caractéristiques: l’une est que le chiffre ci-dessus montre que ses ventes présentent des changements cycliques saisonniers, et l’autre est que les ventes ont une tendance à la croissance stable. , la méthode des séries chronologiques peut donc être utilisée pour prédire les ventes futures sur la base de 4 années de données de ventes historiques.

2.4.2.2 Processus de modélisation

Pour utiliser le modèle ARIMA d’analyse de séries chronologiques pour les prévisions de ventes trimestrielles en 2018, nous devons d’abord créer un objet de série chronologique, puis sélectionner les paramètres, l’ajustement et les prévisions du modèle ARIMA appropriés.

## Series: sales_ts 
## ARIMA(0,1,1)(0,1,0)[4] 
## 
## Coefficients:
##           ma1
##       -0.5792
## s.e.   0.2375
## 
## sigma^2 = 627570347:  log likelihood = -126.7
## AIC=257.41   AICc=258.91   BIC=258.2
## 
## Training set error measures:
##                    ME     RMSE      MAE      MPE     MAPE      MASE       ACF1
## Training set 6157.883 19804.83 14012.62 3.683223 9.574013 0.5767638 -0.1967123
##         Point Forecast    Lo 80    Hi 80    Lo 95    Hi 95
## 2018 Q1       160408.6 128304.0 192513.2 111308.8 209508.4
## 2018 Q2       171028.1 136196.4 205859.8 117757.7 224298.6
## 2018 Q3       233515.7 196155.5 270875.9 176378.2 290653.2
## 2018 Q4       317317.8 277589.7 357046.0 256558.9 378076.8

Les données du tableau de prévisions montrent les éléments suivants:

Prévisions ponctuelles: représente les ventes moyennes prévues pour chaque trimestre. Lo 80 et Hi 80:indiquent l’intervalle de confiance de 80%, ce qui signifie que la valeur prédite a une probabilité de 80% de se situer dans cette plage. Lo 95 et Hi 95:indiquent l’intervalle de confiance de 95%, ce qui signifie que la valeur prédite a une probabilité de 95% de se situer dans cette plage.

2.4.2.3 Les images suivantes sont des résultats de prédiction :

Nous analyserons le graphique prévisionnel généré, qui représente les ventes réelles de 2014 à 2017 et les ventes prévues pour 2018. L’image est discontinue entre le quatrième trimestre 2017 et le premier trimestre 2018 car la valeur prédite est une valeur de plage et il est impossible de trouver un point précis à connecter dans un graphique linéaire, mais cela n’affecte pas la lecture. Il est facile de voir sur l’image :

Les données de ventes réelles de 2014 à 2017 ont montré des fluctuations saisonnières évidentes, qui peuvent être liées aux activités de vente ou au comportement d’achat des consommateurs au cours de saisons spécifiques.

Les prévisions pour 2018 montrent une tendance à la hausse des ventes, mais l’incertitude des prévisions augmente avec le temps, ce qui se reflète dans l’élargissement de la zone ombrée.

Comme le montre le graphique, même si la tendance générale est à la hausse, la croissance des ventes semble avoir ralenti certaines années, comme de 2016 à 2017.

Cela peut être dû à plusieurs facteurs :

-Saturation du marché : à mesure que le marché devient saturé, la croissance des ventes ralentira naturellement.

-Concurrence intensifiée : L’entrée de nouveaux concurrents ou les stratégies concurrentielles des concurrents existants peuvent affecter les ventes.

-Impact économique : les changements dans les conditions macroéconomiques, comme une récession ou une baisse de confiance des consommateurs, peuvent également affecter les ventes.

2.4.2.4 Suggestion:

En réponse à ces tendances observées et aux changements potentiels du marché, la direction des supermarchés peut envisager les stratégies suivantes:

1.Diversifier les produits et services: attirez plus de clients et répondez à la concurrence en introduisant de nouveaux produits ou services.

2.Renforcer les activités de promotion et de marketing : Surtout pendant les périodes de faibles ventes, stimuler la consommation grâce à des promotions et des activités de marketing ciblées.

3.Optimisez la gestion des stocks: ajustez les stocks en fonction des tendances des ventes et des changements saisonniers pour réduire le risque de surstocks et de ruptures de stock.

4.Études de marché et de consommation: mener en permanence des études de marché et sur le comportement des consommateurs pour mieux comprendre les changements dans la demande du marché et les préférences des consommateurs.

Grâce à ces analyses et stratégies, les supermarchés peuvent mieux s’adapter aux changements du marché, optimiser leur efficacité opérationnelle et stimuler la croissance des ventes.

2.5 Dimension géographique

Dans la dimension régionale, nous répondrons principalement aux questions suivantes : De quelles villes aux États-Unis proviennent principalement les clients ? Quelle ville a le pouvoir d’achat moyen des clients le plus élevé ?

2.5.1 Répartition des clients dans les villes américaines

Nous pouvons voir que New York et Los Angeles sont les deux villes avec les ventes et le volume de clients les plus élevés. Dans le même temps, les ventes et le volume de clients de Philadelphie, San Francisco, Seattle, Houston et Chicago sont bien supérieurs à ceux des autres villes. villes. Nous devrions nous concentrer sur ces villes et élaborer un plan de vente.

2.5.2 Pouvoir d’achat moyen des clients dans différentes villes

Nous calculons les ventes moyennes des clients dans chaque ville pour déterminer quelle ville a le pouvoir d’achat moyen le plus élevé. Comme il y a trop de villes, notre image sélectionne uniquement les 10 premières villes à afficher.

Ce graphique montre les 10 villes des États-Unis avec les ventes moyennes les plus élevées. Chaque barre représente les ventes moyennes pour une ville donnée. Les noms des villes sont affichés sur l’axe vertical, tandis que les ventes moyennes sont affichées sur l’axe horizontal en dollars américains.

D’après le graphique :

Jamestown est la ville avec les ventes moyennes les plus élevées, bien au-dessus des autres villes. Cheyenne et Bellingham suivent respectivement en deuxième et troisième positions. D’autres villes comme Independence, Burbank, etc., sont également parmi les 10 premières. Ce graphique aide à comprendre quelles villes ont les clients qui dépensent le plus en moyenne par transaction, ce qui est précieux pour l’élaboration de stratégies de marketing et de vente.

3 Conclusion

Dans ce projet d’analyse de données, nous avons utilisé le langage R pour effectuer une analyse approfondie des données de ventes des supermarchés. Nous avons analysé les supermarchés aux États-Unis et au Myanmar sous cinq dimensions, et avons finalement produit une application Shiny pour mettre en œuvre des graphiques interactifs sur le nombre de clients et le montant moyen des ventes dans différentes villes.

3.1 Difficultés et défis

Au cours du projet, nous avons rencontré les difficultés et défis suivants :

  • Nettoyage et prétraitement des données : en raison du format de date non uniforme dans l’ensemble de données, nous avons passé beaucoup de temps à nettoyer et à convertir le format de date afin d’effectuer une analyse de la dimension temporelle.
  • Implémentation de graphiques interactifs : Lorsque vous utilisez le framework Shiny pour implémenter des graphiques interactifs, vous devez traiter une grande quantité de données et garantir une vitesse de réponse, ce qui augmente la complexité dans une certaine mesure.
  • Grand volume de données : Le traitement et l’analyse de grandes quantités de données mettent à rude épreuve nos ressources informatiques, en particulier lors de l’exécution d’analyses interactives en temps réel.

4 Annexe

Cette page enregistre la répartition du travail de chaque membre de l’équipe. La description de poste de chaque membre est détaillée ci-dessous.

4.1 Répartition du travail des membres

4.1.1 Yifei

Yifei était chargé de résoudre les problèmes liés aux dimensions temporelles et géographiques, et a utilisé Shiny pour créer des graphiques interactifs sur le nombre de clients et le montant moyen des ventes dans différentes villes. Les travaux spécifiques comprennent, sans toutefois s’y limiter :

  • Traitement des données dans la dimension temporelle, y compris la conversion du format de date et l’analyse des séries chronologiques.
  • Analyse liée à la dimension géographique et à la dimension temporelle
  • À l’aide du framework Shiny, développement de graphiques interactifs montrant le nombre de clients et le montant moyen des ventes dans différentes villes. La fonction d’ajustement du nombre de villes affichées et de sélection des différentes années via la barre de progression est mise en œuvre pour assurer l’interactivité dynamique du graphique.